Data Science et visualisation : introduction

Etienne Côme

22 Septembre 2020

Data Science ?

The next sexy job

The ability to take data to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it, that’s going to be a hugely important skill.

– Hal Varian, Google

Data Science ?

Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired statistics.

Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools & materials, coupled with a theoretical understanding of what’s possible

– Mike Driscoll, CEO of metamarkets

Drew Conway’s Data Science Venn Diagram

Data Science ?

A data scientist is someone who can obtain, scrub, explore, model and interpret data, blending hacking, statistics and machine learning. Data scientists not only are adept at working with data, but appreciate data itself as a first-class product.

– Hilary Mason, chief scientist at bit.ly

Data Science ?

Parler de la donnée, c’est aussi évoquer le datascientist, ce mouton à 5 pattes de la data disposant de compétences statistiques, informatiques, comprenant parfaitement les enjeux métier de l’entreprise… Est-il aussi un fantasme du discours ambiant sur le big data ?

Data Science ?

S’il peut exister des profils qui s’approchent de cette description, la réalité démontre le plus souvent que la datascience, comme la science en générale, ne se produit pas seule mais en groupe.(…) Une autre réalité méconnue sur le datascientist est qu’il s’agit avant tout d’un métier d’artisan. Chaque problème et chaque jeu de données demande toujours une démarche spécifique qui n’est pas industrialisable, ce que beaucoup de gens ne comprennent pas encore.

Une mode avec des origines anciennes


Johann Kepler

Une mode avec des origines anciennes


Charles Joseph Minard

Une mode avec des origines anciennes


Charles Joseph Minard

Une mode avec des origines anciennes


William Sealy Gosset (Student)

Des compétences clés

1. Préparer les données (DB)

Récupérer, mélanger, enrichir, filtrer, nettoyer, vérifier, formater, transformer des données…

2. Mettre en œuvre une méthode un modèle (ML/Stats)

Arbre de décision, régression, clustering, Modèle graphique, SVM…

3. Interpréter les résultats (Vis)

Graphiques, Data visualisation, Cartes…

Des compétences clés

1. Préparer les données (DB) – 80% du boulot

Récupérer, mélanger, enrichir, filtrer, nettoyer, vérifier, formater, transformer des données…

2. Mettre en œuvre une méthode un model (ML/Stats)

Arbre de décision, régression, clustering, Modèle graphique, SVM…

3. Interpréter les résultats (Vis) – 80% du boulot

Graphiques, Data visualisation, Cartes…

Des compétences clés

1. Data Munging

Récupérer, mélanger, enrichir, filtrer, nettoyer, vérifier, formater, transformer des données

2. Statistiques

Analyse de données traditionnelle

3. Visualisation

Graphiques, Data visualisation, Cartes…

Plan du cours

  • manipuler des données en R avec dplyr
  • introduction à la visualisation, bonnes pratiques & erreurs communes
  • ggplot et la grammaire graphique
  • données spatiales
  • introduction à la cartographie

Quelques exemples de projets

http://www.comeetie.fr/map_lbc.php

Quelques exemples de projets

http://www.comeetie.fr/galerie/francepixels/

Quelques exemples de projets

http://www.comeetie.fr/galerie/francepixels/

Quelques exemples de projets

http://vlsstats.ifsttar.fr/

Quelques exemples de projets

http://vlsstats.ifsttar.fr/atNight/

Quelques exemples de projets

https://www.comeetie.fr/galerie/sankeystif/